Respuesta adaptativa del microbioma intestinal tras la administración del probiótico Bifidobacterium longum AH1206.
Estudios in silico en biomedicina
Author
Affiliation
Adrià Martínez García
Universitat de València
Published
January 12, 2026
1 Abstract
El uso de probióticos ha sido indicado como una terapia para revertir la disbiosis en los microbiomas intestinales, por cambios en la diversidad microbiana, que alteran sus múltiples funcionalidades. En este estudio, se comprobará si el probiótico Bifidobacterium longum AH1206 mantiene la homeostasis de estas comunidades modulando su potencial funcional y taxonómico tras haber sido ingerido oralmente por 22 pacientes durante dos semanas. Para esto se realiza un análisis taxonómico, metatranscriptómico y de enriquecimiento funcional que acaba indicando que, aunque la diversidad taxonómica no se ve afectada, si que se enriquece el género Bifidobacterium, y también funcionalidades de reprogramación genómica y metabólica. Estos hallazgos sugieren una adaptación funcional adaptativa del microbioma sin comprometer su equilibrio estructural.
2 Introducción
La microbiota intestinal, uno de los ecosistemas con más abundancia de especies del cuerpo humano, juega un papel clave en muchas funciones necesarias para mantener la homeostasis, no solo a nivel intestinal, sino con efectos en todo el cuerpo. De hecho, muchos autores lo consideran un órgano metabólico más (1). Un ejemplo de sus capacidades podría ser el gut-brain axis, que demuestra la relación entre las bacterias intestinales y el cerebro, por ejemplo, en el intercambio de neurotransmisores que puede sintetizar esta microbiota intestinal (2). Por ello, conocer su composición y qué funciones es capaz de hacer es vital para entender el funcionamiento de todo el organismo.
Actualmente se conoce que algunos de los principales colonizadores persistentes de este microbioma son las bacterias lácticas (familia Lactobacillaceae), las proteobacterias del género Escherichia, algunos clostridiales como Faecalibacterium spp. o familias como los Bacteroides o las bifidobacterias. Dado la alta diversidad taxonómica ya mencionada anteriormente, y siendo que estas bacterias se han identificado como claves en la variación de las poblaciones intestinales, son las que se usarán en este estudio como posibles focos de cambios en el metatransciptoma. Esta relevancia radica en su alta producción de metabolitos secundarios como el lactato o el acetato o neurotransmisores, que no solo sirven de nutrientes a otros microorganismos, sino que regulan el pH intestinal y actuan en simbiosis con las células humanas, entre otras funciones, pudiendo así obtener beneficios de su hospedaje en el tracto gastrointestinal (2). No obstante, la disbiosis, es decir, cambios de la composición de estas comunidades, por patologías u otros fenómenos, puede alterar la producción de estos metabolitos beneficiosos, y disminuir sus capacidades funcionales (3).
Es por ello que, actualmente la administración de probióticos -microorganismos vivos que al ingerirse en ciertas cantidades no perjudiciales, confieren efectos beneficiosos para el hospedador y su microbioma intestinal- se ha planteado como una estrategia terapéutica prometedora contra estos desequilibrios (4). Uno de los géneros más usados para estas intervenciones es el Bifidobacterium, ya que está muy estudiado y se conocen sus capacidades para sintetizar metabolitos como ácidos grasos de cadena corta (SCFAs) y de modulación de la microbiota (3).
Uno de ellos, el Bifidobacterium longum AH1206, si bien ha sido catalogado como probiótico, no se conoce su efecto modulatorio sobre su metatranscriptoma, aunque si se han creado modelos metabolicos-ecologicos para el diseño de probióticos a partir de él (3), e incluso se ha analizado su persistencia en el microbioma, que se estima de más de 200 días (5). Por eso, en este estudio se buscará profundizar en los efectos del consumo de este probiótico, a nivel funcional y taxonómico, con el fin de confirmar que no altera ni la diversidad de la comunidad, ni su potencial funcional.
3 Hipótesis
La administración oral del probiótico Bifidobacterium longum AH1206, aunque puede modular la diversidad taxonómica y las funciones del microbioma, no provocará cambios drásticos en la comunidad y preservará la homeostasis del ecosistema.
4 Objetivos del estudio
Determinar las diferencias en la composición del microbioma intestinal tras la administración del probiótico Bifidobacterium longum AH1206.
Predecir qué genes de los microorganismos intestinales pueden cambiar su expresión tras la administración del probiótico mediante un análisis de expresión diferencial.
Conocer las funciones de los microorganismos estudiados que pueden verse moduladas por la administración del probiótico mediante un enriquecimiento funcional.
5 Materiales y métodos
5.1 Descripción de los datos y el estudio utilizado
Para realizar este estudio, se partirá del proyecto PRJNA324129 del repositorio público ENA (European Nucleotide Archive). En él se analiza el efecto de la ingesta oral de Bifidobacterium longum AH1206 como probiótico en la composición de la microbiota intestinal, ya que se conoce su persistencia en este microbioma durante mucho tiempo (5). Para ello se realiza un estudio doble ciego con placebo en 22 pacientes humanos de entre 22 y 38 años, donde se suministra diariamente al grupo tratamiento una dosis de \(10^{10}\) células de Bifidobacterium longum AH1206, durante 2 semanas. Se recogen las heces en tres tiempos: al inicio (baseline), al dia 14 (finalización de la dosis), y al 28 (tiempo después de la finalización d ela administración de la dosis). Estas heces se procesan y se obtiene el RNA metagenómico, preparándose las librerías genómicas con Nextera, y secuenciandose mediante un equipo Illumina HiSeq 2500 (Universidad de Nebraska-Lincoln), generando lecturas de 150 pb.
Aunque el estudio original reclutó a 22 pacientes, el volumen de datos analizado asciende a 132 muestras debido al diseño experimental del estudio (doble ciego cruzado). Cada individuo proporciona muestras en dos fases (placebo y tratamiento), lo que permite un análisis pareado donde cada sujeto actúa como su propio control. De este modo, se dispone de 44 registros para la condición baseline (pre-intervención), 44 registros para la condición treatment (befecto del probiótico) y 44 para la condición post-intervención -que en este caso no será usada-, garantizando así una potencia estadística robusta para la comparación de la variabilidad intra-individual. El resto de muestras (hay 269 en el proyecto), pertenecen a aislados de las heces del microorganismo usado como probiótico, para compararlas con la cepa original. En este caso, tampoco se usarán en este estudio.
5.2 Selección del dataset
Se usarán datos correspondientes al proyecto PRJNA324129, disponibles en el repositorio ENA con 269 muestras, la mayor parte de ellas paired-end. De todas estas, se escogerán únicamente las muestras pertenecientes a human gut metagenome, de acuerdo a su nombre científico, quedando 131 muestras. De estas, se comprobará que sean paired-end y posteriormente se seleccionarán las que sean de el grupo baseline, es decir antes del consumo del probiótico, o treatment, con consumo del probiótico. Se excluirán las muestras tomadas posteriormente al consumo para este estudio. Así, finalmente quedarán 88 muestras, pertenecientes 44 al grupo baseline y 44 al grupo treatment. Esto se ha realizado mediante el siguiente programa en R, generando un fichero .tsv que podrá ser analizado posteriormente y contiene los nombres y metadatos de las muestras, además de la dirección ftp de descarga de los ficheros .fastqcrudos:
Code
library(dplyr)# 1. Leer metadatosdf <-read.delim("metadata_PRJNA324129.tsv", header =TRUE, sep ="\t", stringsAsFactors =FALSE)# 2. Proceso de filtrado y validacióndf_final <- df %>%# Quedarnos solo con metagenomasfilter(scientific_name =="human gut metagenome") %>%# Crear etiquetas de condición basadas en el títulomutate(condition =case_when(grepl("Baseline", sample_title, ignore.case =TRUE) ~"Baseline",grepl("trt", sample_title, ignore.case =TRUE) &!grepl("pre-", sample_title) ~"Treatment",TRUE~"Other" )) %>%# Filtrar solo los dos grupos de interésfilter(condition %in%c("Baseline", "Treatment")) %>%# Asegurar que sean Paired-End (el campo fastq_ftp debe tener los dos archivos separados por ;)filter(grepl(";", fastq_ftp))# Resumen de condicionescat("\n--- MUESTRAS LISTAS (PAIRED-END) ---\n")print(table(df_final$condition))# 3. Guardar el TSV con write.table(df_final %>%select(run_accession, sample_accession, condition, fastq_ftp, sample_title), "samples_baseline_trt.tsv", sep="\t", row.names=F, quote=F)cat("\n¡Hecho! Archivo 'samples_baseline_trt.tsv' generado con éxito.\n")
5.3 Pipeline de análisis bioinformático
5.3.1 Diagrama del flujo de trabajo
flowchart TB
A[FASTQ ENA] --> B[FastQC]
B --> C[Trimmomatic]
C --> D[Filtro humano]
E[DB Referencia] --> F[Alineamiento]
D --> F
F --> G[Kraken2/Bracken]
F --> H[featureCounts]
G --> I[MultiQC Taxonomía]
H --> J[Matriz conteos]
J --> K[edgeR GLM]
K --> L[Genes DE]
L --> M[ORA GO]
L --> N[ORA Taxonomía]
B --> O[MultiQC Calidad]
C --> O
M --> P[Documento Quarto]
N --> P
I --> P
O --> P
style A fill:#bbdefb
style E fill:#c8e6c9
style F fill:#fff3cd
style K fill:#f8d7da
style P fill:#d1ecf1
La reproducción de este flujo de trabajo, así como la instalación de las herramientas necesarias pueden realizarse desde el repositorio asociado en GitHub.
5.3.2 Herramientas y parámetros utilizados
Herramientas bioinformáticas y parámetros utilizados en el análisis
Tal y como se ha comentado anteriormente, dada la alta diversidad taxonómica de este microbioma, y los recursos computacionales limitados de los que se dispone para elaborar este estudio, se ha optado por construir para realizar el alienamiento una base de datos de secuencias que contiene los principales grupos de bacterias que pueden ser importantes y de interés: bacterias lácticas del género Lactobacillus, y de los géneros Bifidobacterium, Bacteroides, Faecalibacterium y Escherichia. Complementariamente, se han descargado los archivos de anotación (.gff) oficiales del NCBI para poder trabajar con los datos, conociendo qué genes son y a qué microorganismo pertenecen. Con toda esta infromación, ya se dispone de un pseudo-genoma de referencia con el que poder lanzar el mapeador bowtie2 con las muestras procesadas.
Code
#conda install -c conda-forge ncbi-datasets-cli# 1. Descargas con el flag --include gff3 para tener la anotación oficialdatasets download genome taxon Lactobacillus --reference--assembly-level complete --include gff3,genome --filename lacto.zipdatasets download genome taxon Bifidobacterium --reference--assembly-level complete --include gff3,genome --filename bifido.zipdatasets download genome taxon Bacteroides --reference--assembly-level complete --include gff3,genome --filename bacte.zipdatasets download genome taxon Faecalibacterium --reference--assembly-level complete --include gff3,genome --filename faecali.zipdatasets download genome taxon Escherichia --reference--assembly-level complete --include gff3,genome --filename escher.zip# 2. Descomprimir (el flag -o sobreescribe si es necesario)unzip-o"*.zip"# 3. Crear carpeta de base de datosmkdir-p genomes# 4. Concatenar los FASTAs para el índice de Bowtie2find ncbi_dataset -name"*.fna"-exec cat {} + > genomes/gut_db.fna# 5. Concatenar los GFF3 para tu análisis en R# Nota: Quitamos las líneas que empiezan por '#' (comentarios) para evitar errores al leerlo en Rfind ncbi_dataset -name"*.gff"-exec grep -v"^#" {} + > genomes/gut_db.gff# 6. Indexarbowtie2-build genomes/gut_db.fna genomes/gut_db_idx# Limpiar archivos temporalesrm-rf ncbi_dataset *.zip
5.3.4 Obtención de la matriz de conteos
Una vez dispuesta la tabla de muestras, el archivo de anotación, se ha ejecutado el archivo Snakefile mediante la herramienta Snakemake, obteniendo los archivos .sorted.bam, además de un informe MultiQC sobre la calidad de las muestras y uno taxonómico, con el mismo software.
Con los archivos .sorted.bam para cada muestra, y juntamente con el archivo de anotación, se construirá la matriz de conteos con featureCounts para poder realizar el análisis de expresión diferencial. Solo se tendrán en cuenta CDS, de muestras pareadas.
Figure 1: Distribución de la calidad Phred en las muestras. La zona verde indica una calidad óptima (>30).
Figure 2: Distribución del contenido GC, donde se observa la complejidad taxonómica de la muestra.
Figure 3: Extracto de la tabla donde se pueden observar las secuencias más representadas en las muestras
De entre todos los resultados proporcionados por FastQC y recopilados en MultiQC, destaca el índice PHRED de calidad por secuencia, donde la mayoría de muestras se encuentran en la zona verde, indicando una buena calidad de las mismas (Figure 1). Además, el porcentaje de GC es muy variable, tal y como se esperaba al ser una muestra compleja con distintos tipos de microorganismos. No obstante, la mayoría de las curvas presentan una distribución semejante a la normal (Figure 2).
Tras comprobar la calidad de estas secuencias y observar que, en algunos casos, había lecturas de baja calidad, se decidió aplicar un filtro mediante Trimmomatic. Asimismo, se realizó una limpieza de posibles lecturas de origen humano mediante un alineamiento contra el genoma de referencia GRCh38 usando Bowtie2, de manera que los posteriores análisis taxonómicos y de expresión diferencial estén lo menos sesgados posibles por contaminaciones.
Por otro lado, Trimmomatic también permite retirar posibles adaptadores y secuencias sospechosas de haberse añadido durante la preparación de las librerías (por ejemplo, secuencias altamente repetidas). Muchas de estas secuencias, como las que se encuentran en la parte superior de la Figure 3, también pueden corresponder también a regiones conservadas del RNA ribosómico (rRNA). Estas secuencias serán eliminadas bien por su baja calidad mediante el filtrado de Trimmomatic, o bien quedarán excluidas durante el alineamiento específico con Bowtie2. En consecuencia, no formarán parte de la matriz de conteos generada por featureCounts, ya que esta solo contabiliza lecturas mapeadas sobre regiones codificantes (CDS).
6.2 Análisis taxonómico
Estos resultados han sido obtenidos a partir del informe multiqc_taxonomy_report_html generado por MultiQC (7) :
Figure 4: Resumen de la taxonomía por familias tras el análisis con Kraken2
Figure 5: Resumen de la taxonomía por géneros tras el análisis con Bracken
Los resultados de taxonomía confirman que en la mayoría de muestras predominan los microorganismos del género Faecalibacterium, y también hay una representación importante de Bifidobacterium, Bacteroides o Eubacterium, y se mantiene a nivel de familia. Esto comfirma aquello mencionado en la introducción, ya que normalmente, microorganismos del género Facealibacterium, Bacteroides o de la familia de las bifidobacterias son las principales colonizadoras de estos ecosistemas. Cabe destacar que no se encuentra una gran presencia de bacterias lácticas, aunque hay muchas lecturas que no están clasificadas, tal y como ocurre normalmente en estos estudios, ya que muchas especies no se encuentran identificadas. Tampoco se observan muestras con una mayor abundancia de bifidobacterias, provinientes del consumo del probiótico estudiado, aunque tampoco se esperaba un gran aumento de este tipo de bacterias tras el consumo (Figure 4, Figure 5). No obstante, estos resultados son similares a lo que indican otros autores en sus estudios (3).
Aunque los dos software utilizados presentan diferentes técnicas para la identificación de especies, se observa que los resultados son muy similares, corroborando la fortaleza de los mismos. mientras kraken2 utiliza k-meros para asignar el ancestro común más reciente, bracken aplica un algoritmo de probabilidad bayesiana para redistribuir las lecturas, reduciendo el sesgo de clasificación, y refinando así la abundancia relativa de los microorganismos presentes en el metagenoma.
Así, se puede confirmar que la estabilidad del metagenoma se encuentra liderada por Faecalibacterium prausnitzii, tanto antes como después de la intervención con Bifidobacterium longum AH1206.
6.3 Análisis de expresión diferencial
Para realizar el análisis metatranscriptómico de expresión y así poder ver en el microbioma escogido qué genes están diferencialmente expresados, se ha creado un objeto Summarized Experiment con la matriz de conteos de las distintas muestras y sus datos fenotípicos asociados, y se ha analizado mediante un modelo lineal generalizado de edgeR. Se han eliminado las muestras con 0 conteos, y el tamaño de librería se ha normalizado usando conteos por millón (método TMM usado por el paquete edgeR) . Finalmente, los p-valores obtenidos se han ajustado mediante el método de Benjamini-Hochberg. La hipótesis nula que se evaluará es que no hay diferencias de expresión en la microbiota seleccionada entre grupo tratamiento con probiótico vs. el control, con una FDR<0.05.
Tras el análisis, se han filtrado los genes diferencialmente expresados, con una tasa de falso descubrimiento (FDR) del 5 %, y se han clasificado según si había una sobreexpresión en el grupo tratamiento con probiótico (logFC > 0) o una infraexpresión respecto al control (logFC < 0). A continuación se pueden observar la representación de los mismos, mediante un vulcano plot interactivo, además de una tabla resumen con la información de los genes diferencialmente expresados, según esta tasa de error: